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面 癌 搜索 引擎 查询 日 志 的 领域 术语 目 动 
识别 方法 
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摘要 : 【 目的 ] 为 弥补 传统 基于 静态 领域 语 料 的 领域 术语 识别 方法 的 不 足 , 提出 一 种 从 搜索 引擎 查询 日 志 中 自动 
识别 领域 术语 的 新 方法 。[ 方法 ] 使 用 四 部 图 对 查询 日 志 进 行 抽象 描述 ， 并 在 其 上 应 用 流 形 排序 算法 得 到 所 有 候 
选 术 语 关于 领域 度 的 排序 ， 取 排 在 前 列 的 术语 作为 领域 术语 。[ 结果 ] 在 真实 搜索 引擎 的 查询 日 志 上 实验 证 实 本 
文 方法 具有 更 好 的 领域 术语 识别 效果 , 在 Precision@n 指标 上 比 基 准 方法 提升 约 2096. [ 局 限 】 识别 到 的 领域 术 
语 的 覆盖 面部 分 依赖 于 领域 专家 选取 的 初始 查询 词 ,， 这 对 领域 专家 的 经 验 提出 一 定 要 求 。[ 结论 ] 该 方法 无 需 事 
先 准 备 大 规模 领域 语 料 以 及 大 量 的 人 工 标注 ， 即 可 构建 高 质量 的 领域 术语 集合 , 具有 较 高 的 实用 价值 。 
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低 , 难以 适应 领域 知识 的 最 新 发 展 变化 。 这 使 得 基于 
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引 A 领域 语 料 的 领域 术语 识别 方法 在 现实 应 用 中 面临 着 很 
领域 术语 泛 指 经 常 出 现 于 特定 领域 语 料 中 的 短语 止 ，。 大 挑 成 。 

比如 “ 双 条 杉 天 牛 " 和 “ 叶 斑 病 ” 是 农业 领域 的 术语 。 相 与 传统 的 领域 语 料 相 比 , 搜索 引擎 查询 日 志 是 一 


比 于 传统 的 通用 词汇 , 领域 术语 蕴含 丰富 的 领域 知识 ， ”种 新 型 的 语 料 资源 由, 它 由 搜索 引 警 自动 采集 , 记录 
因而 领域 词典 成 为 各 类 情报 处 理 与 分 析 任 务 的 一 类 基 用户 与 搜索 引擎 的 整个 交互 过 程 , 包括 用 户 提 交 的 查 
础 资源 。 现 有 领域 字典 主要 通过 两 种 方式 构建 : 采用 ” 询 词 、 搜 索 时 间 、 搜 索 结 果 、 用 户 点 击 等 。 查 询 日 志 
手工 构建 如 AGRIVOCP!, UMLSPAS, 这 种 方法 虽 ”具有 如 下 特点 : 

然 准 确 率 较 高 , 但 构建 过 程 耗费 大 量 人 力 , 特别 是 在 (1) 海量 性 : 搜索 引擎 的 广泛 应 用 使 其 积累 了 海 
领域 知识 更 新 时 很 难 对 领域 词典 进行 有 效 维护 ; 从 领 ” 量 的 查询 日 志 , 不 仅 数量 庞大 ， 而且 覆盖 面 广 ， 基 本 
域 新 闻 外 、 科 技 文献 5 、 维 基 百 科 巾 、 专 利文 档 久 中 、 涵盖 了 各 领域 的 信息 需求 ; 

领域 网 站 中 等 领域 语 料 中 自动 识别 领域 术语 ,这 种 方 (2) 实时 性 : 查询 日 志 是 实时 更 新 的 , 记录 了 每 
法 虽然 具有 一 定 的 自动 化 程度 , 但 是 识别 效果 很 大 程 ”条 用 户 最 新 提交 的 查询 请 求 , 因而 能 够 反映 各 领域 最 
度 取决 于 领域 语 料 的 质量 。 一 般 而 言 ， 获 取 高 质量 领 。” 新 的 信息 需求 。 

域 语 料 存 在 一 些 现实 困难 : 一 方面 ,同时 具有 较 大 领 上 述 特点 使 得 查询 日 志 列 含 了 丰富 的 领域 术语 ， 
域 覆 盖 面 和 较 强 领域 相关 性 的 领域 语 料 通常 难以 采 从 而 可 以 被 当 作 识别 领域 术语 的 一 类 重要 数据 资源 。 
集 ; 男 一 方面 , 领域 语 料 通常 是 静态 的 , 更 新 频 度 较 ”由 于 查询 日 志 由 搜索 引擎 自动 采集 ,因而 无 需 事 先 准 
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备 高 质量 领域 语 料 即 可 从 查询 日 志 这 种 非 领 域 语 料 中 
自动 识别 高 质量 的 领域 术语 集合 , 在 现实 应 用 中 具有 
更 高 的 推广 价值 。 


2 国内 外 研究 现状 


2.1 ”领域 术语 识别 

领域 术语 识别 是 情报 学 科 的 一 个 经 典 问 题 1, 在 
整体 上 可 以 分 为 三 类 : 基于 规则 、 基 于 统计 和 基于 机 
器 学 习 的 方法 。 

基于 规则 的 方法 通过 领域 专家 的 参与 , 利用 构 词 
学 规则 、 语 义 或 词性 信息 构造 模板 , 通过 模板 匹配 识 
别 领域 术语 5 其 主要 不 足 在 于 编写 和 维护 规则 费 
时 费力 , 而 且 随 着 语 料 集 的 增 大 , 规则 的 完备 性 越 来 
越 难 以 保证 。 为 克服 该 问题 , 提出 基于 统计 的 领域 术 
语 识 别 方法 , 这 类 方法 基于 候选 词 条 在 语 料 中 的 统计 
特征 进行 领域 术语 识别 , 代表 性 的 有 TF-IDF 指标 四 、 
互信 息 指 标 外 等 。 研 究 者 还 提出 多 种 复合 指标 ， 比 如 
Dorji 等 外 在 领域 语 料 和 对 比 语 料 中 分 别 计算 TF 等 指 
bs, 并 进一步 进行 融合 ; Bonin 等 外 对 N-Value ,C-Value 
等 指标 进行 整合 , 设计 出 一 种 适用 于 多 单词 领域 术语 
评价 指标 ; 能 李 艳 等 总 应 用 背景 语 料 的 统计 信息 对 
C-Value 指标 进行 改进 ; 曾 文 等 四 针对 科技 文献 的 特点 
设计 了 基于 词语 组 合 强度 和 出 现 位 置 的 领域 术语 统计 
指标 。 近 年 来 ,研究 者 开始 将 机 顺 学 习 技 术 应 用 于 领 
域 术语 识别 问题 ， 提 出 多 种 基于 机 需 学 习 的 方法 , 优 
势 在 于 候选 术语 的 各 种 特征 可 以 被 自动 融合 到 识别 模 
型 中 ,避免 人 工 指定 规则 和 设计 统计 指标 的 困难 , fX 
表 性 工作 有 Foo 等 (9 利用 语言 模型 提取 领域 术语 特 
征 ; Da Silva Conrado 等 ("设计 了 一 套 较为 全 面 的 用 于 
训练 术语 分 类 模型 的 特征 集 ; Loukachevitcht"*I 从 搜索 
引擎 查询 结果 中 提取 用 于 识别 领域 术语 的 特征 。 实 验 
表明 基于 机 器 学 习 的 领域 术语 识别 方法 能 够 取得 较 好 
的 识别 效果 , 但 这 类 方法 需要 一 定 的 人 工 标注 ， 这 于 
约 了 基于 机 需 学 习 的 领域 术语 识别 方法 的 广泛 应 用 。 

本 文 提 出 的 方法 属于 基于 机 需 学 习 的 方法 。 然 而 ， 
本 文 并 没有 像 传统 方法 一 样 应 用 监督 学 习 算 法 ， 而 是 
将 领域 术语 识别 任务 抽象 为 一 个 多 部 图 上 的 半 监 督学 
习 问 题 , 这 种 做 法 的 优点 是 通过 充分 利用 查询 日 志 
在 的 流 形 结构 以 减少 机 器 学 习 算 法 所 需 的 人 工 标注 
量 。 此 外 , 本 文 面 向 搜索 引擎 查询 日 志 这 种 全 领域 语 
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料 ， 而 已 有 基于 机 天 学 习 的 领域 术语 识别 方法 主要 针 
对 领域 语 料 。 
22 ”查询 日 志 分 析 

搜索 引擎 查询 日 志 是 信息 检索 领域 中 的 一 种 重要 
语 料 , 除了 具有 海量 动态 的 特点 之 外 , 由 于 其 中 记录 
了 海量 用 户 与 搜索 引擎 完整 的 交互 过 程 ， 因而 蕴含 了 
丰富 的 “群体 智慧 ”。 近 年 来 , 在 信息 检索 及 相关 领域 
开展 了 大 量 基 于 搜索 引擎 查询 日 志 的 研究 工作 , 包括 
查询 扩展 站、、 用 户 行为 建 模 中 、 命 名 实体 识别 
等 ,其 中 与 领域 术语 识别 较为 相关 的 是 命名 实体 识 
别 。 命 名 实体 是 指 诸如 人 名 、 机 构 名 、 地 名 等 标识 实 
体 的 名 词 ,经 统计 发 现 , 在 搜索 引擎 查询 日 志 中 
约 70% 的 查询 词 包含 命名 实体 中， 因此 查询 日 志 成 为 
命名 实体 识别 的 一 个 重要 资源 。 目 前 代表 性 的 命名 实 
体 识 别 方法 有 : 翟 海军 等 "使 用 弱 监 督 主题 模型 识别 
命名 实体 的 类 别 ; Jain 等 ”设计 了 一 系列 模式 和 统计 指 
标 从 海量 查询 日 志 中 高 效 识别 领域 无 关 的 命名 实体 ; 
Dalvi 等 "设计 了 面向 命名 实体 识别 任务 的 语言 模型 。 

虽然 命名 实体 与 领域 术语 具有 一 定 相似 性 ， 然 而 
两 者 具有 本 质 的 不 同 : 一 方面 , 命名 实体 本 质 上 是 各 
种 名 称 , 故 通常 是 名 词 ,而 领域 术语 并 没有 这 个 限制 ， 
比如 “插秧 "是 农业 领域 的 专业 术语 , 但 却 不 是 一 个 命 
名 实体 ; 另 一 方面 ,命名 实体 与 特定 领域 没有 必然 的 
关联 性 ， 而 领域 术语 一 定 是 与 特定 领域 密切 相关 的 。 
此 外 , 已 有 工作 很 少 基 于 查询 日 志 内 在 的 流 形 结构 开 
展 命名 实体 识别 研究 。 


3 ”领域 术语 识别 任务 定义 


3.1 查询 日 志 形 式 化 描述 

查询 日 志 记录 了 用 户 与 搜索 引擎 交互 过 程 中 产生 的 
各 类 信息 , 表 1 给 出 了 查询 日 志 中 每 条 记录 的 基本 字段 
格式 , 本 文 主要 关注 User, Query, URL 三 个 字段 。 


表 1 日 志文 件 格式 


字段 日 志 记录 内 容 
TimeStamp 用 户 提 交 查 询 的 时 间 
User HP ID 
Query 必 户 提交 的 查询 词 
URL 用 户 点 击 的 URL 地 址 
ShowRank URL 在 搜索 引擎 中 返回 结果 中 的 排名 
ClickRank 户 点 击 URL 的 顺序 


查询 日 志 记 录 了 搜索 用 户 (Usen dd 
(Query)、 目 标 网 页 (URL) 之 间 的 关联 关系 。 通 过 抓 取 
URL 对 应 的 网 页 并 提取 其 中 的 候选 术语 , 可 以 进 一 
步 得 到 URL 与 Term 之 间 的 关联 关系 。 本 文 使 用 图 1 
所 示 的 四 部 图 抽象 描述 上 述 各 种 关联 关系 。 假 设 Q、 
U、P 分 别 表示 查询 日 志 中 所 有 查询 词 、 用 户 、URL 
HEE, TRIR URL 对 应 网 页 中 所 有 候选 术语 的 集 
fr, 则 查询 日 志 四 部 图 可 表示 为 G=<UUQUPUT， 
EuaoUEapUEpr>, 其 中 Euo 、Eap 、Epr 分 别 表示 各 类 
节点 之 间 的 边 集 。 如果 用 户 u 提 交 了 查询 词 q, 那么 u 和 
gq 之 间 在 Euo 中 存在 连 边 ; 如 果 某 用 户 通 过 查询 词 q 点 
i f URL p, 那么 g 和 p 之 间 在 Eap 中 存在 连 边 ; WR 
URL 中 对 应 的 网 页 p 中 包含 候选 术语 t, 那么 p 和 t 之 间 
在 Epr 中 存在 连 边 。 


图 1 查询 日 志 四 部 图 


3.2 ”领域 术语 识别 框架 

基于 查询 日 志 四 部 图 G, 领域 术语 识别 的 目标 是 

根据 用 户 指 定 的 初始 领域 查询 词 集合 Q, 得 到 该 领域 
内 的 术语 集合 Tp， 本 文 将 之 分 解 为 两 个 阶段 实现 : 
(1) 领域 查询 词 识 别 。 给 定 目 标 领 域 , 在 G 的 
< 用 户 ,查询 词 , URL > 三 部 子 图 Guop=<UUQUP, 
Ego U Eop> 中 , 识别 与 Q0( 图 1 中 的 qo) 具 有 相同 领域 
的 查询 词 集合 Qu( 图 1 中 的 q Ma); 

(2) 领域 术语 识别 。 领 域 查询 词 并 不 能 被 严格 地 
作为 领域 术语 , 主要 原因 是 用 户 输入 的 查询 词 在 语法 
或 词法 格式 上 并 不 规范 , 口语 化 、 宛 长 及 歧义 等 现象 
普遍 存在 ,因而 基于 Qb， 提 取 与 之 相关 的 网 页 集合 
Pp( 图 1 中 的 pj p,p), 进一步 在 G 的 < URL, 候 选 术语 > 
二 部 子 图 Gpr=<Pp UT, Epr> 中 识别 与 目标 领域 相关 的 
术语 集合 Tbp( 图 1 PÉI Mt) 
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4 ”领域 术语 识别 算法 


由 于 查询 日 志 涵盖 众多 领域 ， 导 致 任 一 单个 领域 
相关 的 信息 均 非 常 稀疏 。 领 域 稀 玻 性 导致 在 查询 日 志 
四 部 图 中 识别 领域 查询 词 和 领域 术语 变 得 非常 困难 。 
本 文通 过 利用 查询 日 志 内 在 的 结构 化 特征 来 克服 稀 蚊 
性 问题 。 由 于 同一 用 户 通常 具有 相对 专 一 的 查询 兴趣 ， 
且 同 一 URL 对 应 的 网 页 通常 是 相对 集中 的 主题 ， 因 而 
如 果 多 个 查询 词 经 常 被 同一 用 户 提交 或 者 触发 了 相同 
URL 的 点 击 , 那么 它们 更 倾向 于 属于 同一 领域 。 此 外 ， 
领域 术语 具有 聚集 出 现 的 特点 ， 如 果 多 个 术语 经 常 在 
一 个 网 页 中 出 现 , 那么 它们 也 倾向 于 属于 相同 领域 。 
基于 上 述 特点 , 本文 首先 度量 查询 日 志 中 查询 词 、 用 
P, URL, 候选 术语 之 间 的 关联 关系 , 得 到 G 中 各 类 边 
的 权重 , 再 应 用 流 形 排序 算法 识别 与 目标 领域 相关 的 
查询 词 或 术语 。 

4.1 领域 查询 识别 

(< 用 户 ,查询 词 , URL> 三 部 子 图 边 权 重 计 算 

三 部 子 图 Guap 中 边 权 重 反映 用 户 与 查询 词 、 查 询 
词 与 URL 之 间 的 关联 度 。 直 观 而 言 ， 如 果 用 户 u 频 繁 
提交 查询 词 q 而 且 u 提 交 的 查询 词 总 数 较 少 , 那么 u 与 
q 之 间 具 有 较 强 关联 度 ; WR URL p 频 繁 通过 查询 词 q 
被 点 击 ， 而 且 与 p 关 联 的 查询 词 总 数 较 少 , 那么 p 与 q 之 
间 具 有 较 强 关联 性 。 基 于 上 述 思 想 , 对 于 V< uq» € Euo 
及 V< qp>EEua, 本 文 设计 如 下 权重 公式 : 


count(w,q) |. Q] 


o 1 
"ee Y www ^ Diu O 
weU q'eQ 
count(p, q) IQ] 
w ;— log - (2) 
TW? ^ W'count(p,qg) ^ 2 I(p,q) 
p'eP q'eQ 


其 中 ，count(uqd) 和 count(p,qd) 分 别 表 示 在 查询 日 
志 中 用 户 u 提 交 查 询 词 q 以 及 URL p 通 过 查询 词 q 被 
点 击 的 次 数 ，I(u,q"”) 和 I(p,q”) 分 别 表示 用 户 u 是 否 提 交 
过 查询 词 q' 以 及 URL p 是 否 通过 查询 词 q 被 点 击 。 公 
式 (1) 和 公式 (2) 右 侧 前 半 部 分 是 特定 查询 词 上 的 用 
户 /URL 频 率 , 反映 了 用 户 /URL 与 该 查询 词 的 相关 
度 ; 公式 (1) 和 公式 (2) 右 侧 后 半 部 分 是 用 户 /URL 频 
率 的 倒数 , 反映 了 用 户 /URL 的 专注 度 , 与 特定 查询 
词 无 关 。 当 用 户 /URL 与 菜 查 询 词 之 间 相 关 度 较 高 ， 
且 用 户 /URL 的 专注 度 较 高 时 ， 则 它 与 该 查询 词 之 间 
有 和 较 高 关联 度 。 
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(2) 流 形 排序 算法 应 用 

流 形 排序 算法 中 目标 是 利用 图 数据 内 在 流 形 结 检 
对 图 中 每 个 节点 进行 排序 .该 算法 在 样本 集 上 构建 一 个 
加 权 近 邻 图 ， 人 工 赋予 图 中 部 分 节点 初始 兴趣 度 ; 之 后 
每 个 节点 的 分 值 在 加 权 近 邻 图 中 线性 迭代 传播 ， 直到 
达到 一 个 稳 态 ; 排序 在 前 的 节点 对 应 着 具有 较 高 兴趣 
度 的 样本 。 大 量 实践 证 明 , 流 形 排序 收敛 性 较 好 ,排序 
结果 通常 能 有 效 反映 图 中 各 节点 的 兴趣 度 。 

在 领域 查询 词 识别 任务 中 , 由 领域 专家 指定 一 个 
初始 领域 查询 词 集合 , 在 Guos 上 应 用 流 形 排序 算法 得 
到 查询 日 志 中 所 有 查询 词 的 排序 , 其 中 排名 靠 前 的 碍 
询 词 与 初始 指定 的 领域 查询 词 具有 较 强 相关 性 , 可 被 
认为 是 领域 查询 词 。 由 于 Guop 是 异 质 图 , 在 应 用 流 形 
排序 算法 时 需要 先 将 其 转换 为 由 查询 词 节点 构成 的 同 
质 图 ,为 此 , 需要 基于 Guop 中 各 类 边 的 权重 计算 得 到 在 
用 户 和 URL 维度 上 查询 词 之 间 的 相似 度 , 根据 余弦 相 
似 度 29g 设 计 了 如 下 查询 词 相似 度 计算 公式 ; 

Y aas waa 


ueU (3) 


2 2 
2 W zug» 2 W <uqi> 
ueU peP 


sz 


SimUser (qi > qj) z 


2 Wzqi,p» ` W«qip» 


P 
dud pe (4) 


> Sins 42 Was 
peP 


peP 


之 后 , 对 用 户 和 URL 维度 上 查询 词 相似 度 进行 线 

生 加 权 融 合 ， 最 终 使 用 的 查询 词 相似 度 公式 如 下 : 
sim(q;,q;)-o simu, (q;.3;) (170) simum; (q;.3;) (5) 

其 中 ，a 是 参数 ,控制 了 用 户 维度 和 URL 维度 
对 查询 词 相似 度 贡献 的 比例 。 由 于 网 页 主题 相对 用 
户 搜索 兴趣 更 专 一 , 因而 URL 维度 的 贡献 通常 更 
大 。 实 验 中 令 a =0.2。 

根据 公式 (5) 可 构建 一 个 由 查询 词 构成 的 查询 词 
图 ,每 个 节点 是 一 个 查询 词 ， 节 点 间 连 边 的 权重 由 公 
式 (9 计算。 由 于 sim(qiq)-1 (=1…,|QD)， 这 会 导致 流 
形 算法 在 运行 过 程 中 出 现 自 加 强 现象 ， 故 令 
Vi=1,…,|Q]|, sim(q;,q;)=0。 

假设 查询 词 图 邻接 矩阵 W = (sim(qi, qj))lQmo ,在 
其 上 应 用 流 形 排序 算法 识别 领域 查询 词 的 步骤 如 下 : 

@D 查 询 词 图 邻接 撼 阵 预 处 理 。 为 保证 流 形 排序 算法 的 收 
健 性 ， 对 W 在 行 和 列 上 进行 归 一 化 05， 得 到 珑 阵 


二 
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s- p "2wp-2 (6) 


IQI 
其 中 , D 是 对 角 阵 , 满足 Di = > sim(qi,qj) o 


j=l 

@) 领 域 度 初 始 化 。 人 工 指 定 一 个 初始 领域 查询 词 集合 ， 
ERU Ey-Guy Yo) 表示 查询 词 节点 的 先 验 领 域 度 ， 
车 查询 词 q 属 于 初始 领域 查询 词 集 合 ,y=1; 否则 y=0。 

ORARE ZUH ofi fo) 表示 查询 词 节 
点 的 后 验 领 域 度 ,基于 流行 排序 算法 中 进行 迭代 计算 直到 
收 化， 公式 如 下 : 

f^ D- -S-a yy (7) 

其 中 ，Q E[0, 1) 是 平滑 参数 ， 用 于 控制 先 验 领域 度 和 
相 邻 节点 对 最 终 领 域 度 的 贡献 比例 。 

@ 领 域 查询 词 输出 。 指 定 领域 查询 词 数量 n， 对 每 个 查 
询 词 qi (i=1,…,|Q|), 根据 Ef 进行 排序 , 取 前 n 个 查询 词 作为 领 
域 查询 词 Qp。 

4.2 ”领域 术语 识别 

(1) 候选 术语 生成 

识别 得 到 领域 查询 词 集 Qu 后 , 在 查询 日 志 中 用 户 
通过 Qu 点 击 的 URL 对 应 的 网 页 即 可 被 认为 是 领域 相 
关 的 。 本 文 将 该 领域 网 页 集 形式 化 表示 为 : 

Pp={p | (Yq E Q5) ^ (p E Click(q))} (8) 

其 中 ，Click(q) 表 示 在 查询 日 志 中 用 户 提交 查询 
词 d 后 点 击 的 URL 集合 。 抓 取 Pp 中 每 个 URL 对 应 的 
网 页 ， 过滤 HTML 标签 等 无 效 信息 后 可 得 到 该 领域 
的 Web 语 料 集 。 由 于 抓 取 的 网 页 是 用 户 提交 查询 词 
后 进行 相关 性 判断 后 点 击 的 ， 因 而 与 领域 查询 词 具 
有 很 高 相关 性 ， 其 中 所 有 短语 即 为 目标 领域 的 候选 
术语 集合 。 

然而 , 很 多 领域 术语 往往 无 法 被 传统 中 文 分 词 工 
具 正 确 识别 , 在 很 多 情况 下 领域 术语 会 被 切 分 成 分 散 
的 单字 。 比 如 农业 领域 术语 “ 双 条 杉 天 牛 ” 常 被 分 词 工 
具 切 分 为 “ 双 / 条 / 杉 /天 牛 ”"。 因 此 , 对 Web 语 料 集 进行 
切 分 后 , 需 对 切 词 结果 进行 合并 以 得 到 候选 领域 术 
语 。 具 体 使 用 基于 滑动 窗口 的 方法 提取 候选 术语 ， 即 
使 用 长 度 分 别 为 2、3、4 的 滑动 窗口 得 到 分 词 词 串 中 
所 有 可 能 的 n-gram 作为 可 能 的 候选 术语 。 由 于 n-gram 
数量 庞大 ,本文 使 用 扩展 的 多 元 互信 息 指标 了 "度量 候 
选 n-gram 的 紧密 度 。 

假设 n-gram C=cics…cn,p(C) 和 p(ci) 分 别 为 
n-gram C 和 词 单元 ci 在 语 料 中 出 现 的 频率 ， 本文 为 
n-gram C 设 计 如 下 互信 息 公式 。 


eMI(C) = log a (9) 
i=1P(Ci 


相 比 于 传统 的 多 元 互信 息 指 标 "公式 (9) 中 增加 
了 开 方 参数 y o y 取 较 大 值 时 ,可 以 对 低频 n-gram 
进行 惩罚 ， 降 低 低 频 n-gram 的 权重 ， 从 而 排除 一 定 的 
噪音 低频 n-gram。 实 验 中 令 Y=2 。 

由 于 候选 术语 包含 不 同 长 度 的 n-gram， 而 不 同 长 
度 的 n-gram 的 互信 息 不 具有 可 比 性 (互信 息 取 值 具有 
随 n 变 大 而 增长 的 趋势 )。 为 克服 该 问题 ， 进一步 在 相同 
KEKR n-gram 之 间 进 行 归 一 化 ,得 到 作为 最 终 度量 
n-gram 紧密 度 的 指标 ,公式 如 下 : 


Mi - ec) 元 Y eMC’) (10) 


ICI c'eso 
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词 进行 切 分 , 其 中 的 高 频 词 当 作 第 二 阶段 所 需 的 初始 
领域 术语 集合 ， 而 不 再 进行 人 工 指定 。 


5 实验 结果 及 分 析 


51 实验 设置 
实验 使 用 某 商 用 搜索 引擎 公开 的 真实 查询 日 志 "。 
为 提高 实验 效率 , 笔者 过 滤 掉 无 效 的 URL 以 及 与 之 关 
联 的 查询 词 , 最 终 用 于 实验 的 查询 日 志 的 统计 信息 如 
K 2 rn: 


表 2 实验 数据 统计 信息 


统计 项 目 数量 
查询 词 3 400 480 
URL 6 179 488 


< 查询 词 , URL> 点 击 记录 6 905 367 


其 中 ，Sicl 表 示 与 C 具 有 相同 长 度 的 n-gram 集合 ， 
因此 分 母 表示 所 有 与 C 具 有 相同 长 度 的 n-gram 的 互信 
息 的 平均 值 。 使 用 公式 (10) 计 算得 到 所 有 n-gram 的 紧 
密度 后 ， 紧 密度 超过 某 指定 阔 值 的 n-gram 被 选 作 候选 
术语 。 

(2) «URL, 候选 术语 > 二 部 子 图 边 权重 计算 

为 了 从 候选 术语 中 识别 出 真正 的 领域 术语 ， 先 计 
算 查 询 日 志 四 部 图 的 <URL, 候选 术语 > 二 部 子 图 Gpr 
中 候选 术语 与 URL 连 边 的 权重 , 在 其 上 应 用 流 形 排序 
算法 得 到 所 有 候选 术语 关于 领域 度 的 排序 。 

Grr 中 候选 术语 与 URL 连 边 的 权重 反映 了 两 者 的 
RKE, 类 似 于 公式 (1) 和 公式 (2) 的 设计 思想 ,本文 设 
计 了 如 下 连 边 权 重 计算 公式 : 

_ count(p,t) | [Pi 
len(p) 之 Yp,0 
p'ePp 

其 中 ，count(p,0 表 示 候 选 术语 t 在 网 页 p 中 出 现 的 
次 数 ，len(p) 表 示 网 页 p 中 候选 术 话 数 量 ，IGp,0 表 示 候 
选 术语 + 是否 在 网 页 p 中 出 现 。 

在 得 到 Gpr 的 边 权 重 之 后 ,， 先 将 其 转换 为 候选 术 
WAER, 并 在 其 上 应 用 流 形 排序 算法 得 到 所 有 候选 
术语 关于 领域 度 的 排序 , 序列 中 前 m 个 候选 术语 即 可 
被 作为 目标 领域 的 术语 集合 。 需 要 指出 的 是 ,由 于 在 
第 一 阶段 已 经 得 到 领域 查询 词 集合 , 对 所 有 领域 查询 


1) 


Wop,t> 


Dhttp://www.sogou.com/labs/dl/q.html. 


实验 选择 “农作物 病虫害 防治 ”领域 作为 目标 领 
域 。 为 了 能 够 对 该 领域 的 外 延 和 内 涵 进 行 准确 界定 ， 
笔者 邀请 一 名 某 农业 大 学 植物 保护 专业 的 博士 参与 实 
验 , 负责 标注 初始 领域 查询 词 以 及 人 工 评判 算法 输出 
的 每 条 领域 术语 的 正确 性 。 

在 领域 术语 识别 任务 中 , 目标 领域 内 的 领域 术语 
通常 难以 全 部 获取 ,从 而 很 难 评价 实验 结果 的 召回 率 ， 
因此 本 文采 用 基于 精确 率 的 评价 指标 。 由 于 流 形 排序 
算法 最 终 得 到 的 是 所 有 候选 术语 关于 领域 度 的 排序 ， 
具体 采用 评价 排序 准确 性 的 指标 Precision@n( 简 称 
P@n) 评 价 算法 输出 结果 的 准确 度 : 

_ 输出 序列 的 前 n 个 术语 为 正确 领域 术语 的 数量 


其 中 , n 为 在 输出 序列 中 截取 的 序列 长 度 ， 本 实验 
中 令 n=100, 200, 300, 400, 500。 

在 领域 术语 识别 研究 中 , 使 用 查询 日 志 作 为 语 料 
的 工作 较 少 , 文献 [是 其 中 的 少数 工作 之 一 ， 故 以 
文献 [11] 的 方法 作为 本 实验 的 基准 方法 。 文献 [11] 需 要 
事先 人 工 标注 一 定数 量 的 领域 URL. 来 获取 领域 Web 
语 料 ， 而 本 文 方法 仅 需 要 人 工 指定 少量 初始 领域 查询 
词 。 为 进行 公平 全 面 的 比较 , 在 实验 中 使 用 本 文 方法 
第 一 阶段 中 得 到 的 领域 查询 词 对 应 的 URL 替代 文献 
[1 中 所 需 人 工 标注 的 领域 URL。 


(12) 


P(gn 
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5.220 ”实验 结果 

(1) 参数 敏感 性 分 析 

对 流 形 排 序 算法 中 平滑 参数 a 的 敏感 性 进行 实验 
分 析 。 首 先 , 令 a 在 [0.5, 1.0] 范 围 内 以 0.1 为 步 长 取 不 
同 的 值 ， 并 记录 不 同 a 取 值 下 领域 术语 识别 结果 的 
P@n 变化 情况 , 结果 如 图 2 所 示 。 可 以 看 到 , 参数 a 对 
领域 术语 识别 效果 具有 一 定 影响 。 随 着 a 的 增长 , 领域 
术语 识别 效果 不 断 提升 ， 当 a=0.9 时 达到 极 值 。 由 于 a 
控制 了 先 验 领域 度 和 相 邻 节点 对 最 终 领域 度 的 贡献 比 
例 , 这 说 明 相 比 于 人 工 指定 的 先 验 领域 度 ， 相 邻 节 点 
间 的 领域 度 传播 对 于 领域 术语 识别 具有 更 重要 的 作 
用 。 然 而 ， 当 a=1.0 时 , 领域 术语 识别 效果 大 大 降低 ， 
这 说 明 人 工 指 定 的 先 验 领域 度 也 是 必 不 可 少 的 。 


0.76 


0.74 - 
P@100 
0.72- 
m P@200 
5 0.704 E 
oni m P3300 
0.66- P@400 
0.64 4 m P@500 
0.62 T T T T T 
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图 2 a 不 同 取 值 下 的 领域 术语 识别 效果 


之 后 , 令 a=0.9,， 对 本 文 方法 两 个 阶段 中 应 用 流 形 
排序 算法 时 的 收敛 性 能 进行 分 析 。 实 验 中 , 分 别 计算 
相 邻 两 个 迭代 过 程 中 各 个 候选 术语 得 分 差 值 的 平方 和 
(Sum of Squared Difference, SSD)， 以 此 评价 迭代 过 程 
的 收敛 情况 , 结果 如 图 3 所 示 。 可 以 看 出 , 本文 方法 两 
个 阶段 均 只 需 少 量 的 迭代 次 数 即 可 达到 收敛 ,在 领域 
查询 词 识别 阶段 迭代 150 次 即 可 达到 收敛 , 在 领域 
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迭代 次 数 
图 3 收敛 性 能 
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术语 识别 阶段 迭代 100 次 即 可 达到 收敛 。 因 而 , 本 文 
方法 具有 较 好 的 领域 术语 识别 效率 。 

(2) 对 比 实 验 

基于 上 述 参数 取 值 , 将 本 文 方法 与 基准 方法 进行 
比较 , 分 别 标注 两 者 识别 得 到 的 前 500 个 领域 术语 的 
正确 性 , 结果 如 图 4 所 示 。 可 以 看 出 , 本 文 方法 的 识别 
结果 准确 率 平均 达到 74%， 具 有 一 定 的 实用 价值 ; 此 
外 , 本 文 方法 在 各 个 P@n 度量 指标 上 都 优 于 基准 方 
ik, 特别 在 n 取 值 较 大 时 具有 更 大 的 优势 ,这 说 明 相 
比 于 通过 计算 传统 的 领域 度 指 标识 别 领域 术语 , 通过 
构建 查询 日 志 四 部 图 并 应 用 流 形 排序 算法 能 取得 更 优 
的 领域 术语 识别 效果 。 
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P@100 P@200 P@300 P@400 P@500 
图 4 对 比 实 验 结果 

5.3 ”识别 结果 展示 及 错误 分 析 

K 3 展示 了 本 文 方法 在 农作物 病虫害 防治 领域 中 
识别 得 到 的 部 分 领域 术语 ,其 中 第 1 列 是 人 工 指 定 的 
初始 领域 查询 词 , 第 2 列 和 第 3 列 是 识别 得 到 的 前 30 
个 领域 术语 及 其 排序 得 分 , 其 中 标 “*” 的 是 识别 错误 。 
可 以 发 现 , 本 文 方法 在 整体 上 能 够 得 到 较为 准确 的 识 
别 结果 。 

通过 对 识别 错误 进行 分 析 , 发 现 本 文 方法 存在 两 
方面 的 局 限 性 : 如 果 某 些 频率 较 高 的 词 与 初始 查询 词 
频繁 共 现 , 那么 倾向 于 将 这 些 组 合 搭配 词 识别 为 领域 
术语 , 例如 “玉米 旦 的 "“ 蚜 虫 蚜虫 ” 该 问题 可 以 通过 
进一步 改进 候选 术语 紧密 度 公式 解决 ; 识别 得 到 的 领 
域 术语 大 多 与 指定 的 种 子 术 语 相 关 性 高 ,， 若 种 子 术语 
对 领域 内 容 的 覆盖 面 不 足 , 则 有 可 能 导致 识别 结果 的 
召回 率 不 高 , 为 解决 该 问题 , 需要 根据 目标 领域 的 知 
识 类 目 进行 有 代表 性 的 选取 ， 比 如 对 于 农作物 病虫害 
防治 领域 ,可 以 参考 农业 图 谱 等 领域 知识 资源 ,并 邀 
请 相关 专业 (植物 保护 等 ) 的 专家 指定 高 质量 的 初始 领 
域 查询 词 。 
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表 3 领域 词 识别 结果 


初 如 领域 
序号 ”领域 | 序号 术语 领域 度 | 序号 领域 术语 领域 度 
查询 词 
蚜虫 | 1 白粉 病 1.0000| 16  #0f4Ę 0.3881 
2 d |2 褐 斑 病 ”1.0000 | 17 Mk 0.3754 
3 WS | 3 TCR ”1.0000 | 18 MEWE 0.2859 
4 ”白粉 病 |4 Wk 1.0000| 19 i 025 
^ EA 
ix 
5 疫病 | 5 蚜虫 1.0000 | 20 eid 0.2818 
6 ”乳油 |6* EXMA 0.8324 | 21 Él: 0.2776 
7 “介壳 虫 |7 ”波尔多 液 0.8061 | 22 0.2752 
8 菌 丝 体 | 8 多 菌 录 0.6676 23 0.2739 
Re HEU 
9 dpt | 9 IIP 0.6592 | 24 FUR 0.1998 
10 “敌敌畏 | 10 ”功夫 乳油 0.5468 | 25* 蚜虫 蚜虫 0.1838 
11 ” 根 腐 病 | 11  ” 青 枯 病 ”0.5101 | 26 A. 0.1684 
"a 白色 番 木 瓜 
12. JE | 12 "T: 0.4811 | 27 白粉 病 0.1633 
" AUR — 
13 nidi | 13 菌 丝 体 0.4433 | 28 ”油菜 蚜虫 0.1625 
"S 菌 丝 oe 
14 ” 白 绢 病 | 14 "n" 0.4015 29 ”豌豆 蚜虫 0.1579 
m 冬瓜 
15. EXIM | 15 ” 茎 基部 0.3990 | 30 白粉 病 0.1451 


6 结 语 


搜索 引擎 查询 日 志 是 一 种 重要 的 语 料 资源 ， 具有 
海量 、 动 态 等 特点 ,其 中 列 含 丰富 的 领域 术语 。 本 文 
提出 利用 查询 日 志 自 动 识别 领域 术语 的 方法 。 在 该 方 
法 中 , 查询 日 志 被 抽象 成 一 个 四 部 图 结构 , 通过 在 其 
上 应 用 流 形 排序 算法 分 别 得 到 候选 术语 关于 领域 度 的 
排序 , 在 序列 中 排 在 前 列 的 被 认为 是 目标 领域 相关 的 
领域 术语 。 本 文 方法 的 优点 是 : 能 够 自动 从 查询 日 志 
这 类 非 领 域 语 料 中 识别 出 特定 领域 的 领域 术语 ,避免 
了 传统 方法 需要 事前 准备 大 规模 领域 语 料 这 一 现实 难 
题 ; 通过 充分 利用 查询 日 志 内 在 的 结构 化 特征 ， 只 需 
标注 少量 的 初始 领域 查询 词 ， 即 可 识别 得 到 丰富 准确 
的 领域 术语 ,避免 了 传统 方法 所 需 的 大 量 人 工 标注 工 
作 。 在 真实 的 查询 日 志 数据 集 上 进行 实验 , 结果 表明 
本 文 方法 具有 较 高 的 收敛 速度 和 识别 准确 率 。 进 一 步 
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Identifying Terminology from Search Engine Query Logs 


Liu Tong Ni Weijian Liu Mei 
(College of Information Science and Engineering, Shandong University of 
Science and Technolgoy, Qingdao 266590, China) 


Abstract: [Objective] This study proposes a new approach to identify terminologies from search engine query logs for 
the purpose of improving traditional technology. [Methods] First, used the four-partite graph to re-present those query 
logs. Then, ranked the candidate terminologies with the help of manifold ranking algorithm. Those top ranked ones 
were domain-specified. [Results] We tested the proposed method with real search engine query logs and found the 
precision rates were about 20% higher than the standard approach. [Limitations] The coverage of those identified 
terminologies relies on the initial domain-specified queries manually chosen by the experts. [Conclusions] The 
proposed approach could build high quality domain thesaurus without pre-defined large domain corpus and annotations. 
Thus, the new method was more practical for real world issues. 


Keywords: Domain terminology Search engine Query logs Manifold ranking 
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